min rank | avg. rank | sentence |
---|---|---|
848 | 6063.8000 | Advarsel: Artiklen indeholder voldsomme billeder. |
629 | 7955.8000 | Desværre, understreger Rasmus Overgaard Kardyb. |
507 | 2965.6667 | Anders Kühnau kalder situationen uheldig. |
492 | 5742.6667 | Dermed vandt Klæbo karrierens fjerde VM-guld. |
459 | 4279.5714 | Om B117 forårsager alvorligere sygdom undersøges yderligere. |
450 | 8495.8750 | Søren Ryge Petersen: Huller, huller, huller! |
413 | 14282.4286 | Lisbeth Alsing Axen træner begge pigers hold. |
343 | 8218.2500 | MIB demonstrerer imod coronarestriktioner, vaccinationer imod covid-19 mm. |
341 | 3474.1250 | Kilde: AstraZeneca, BBC, Guardian, Københavns Universitet, EMA. |
304 | 4631.8571 | Nyere tids største politiker, kalder Steen Hasselriis (V) Lars Løkke Rasmussen. |
269 | 9868.2727 | Søndag 7. marts 9:00-14:00 Ølstykke Hallen Tranekærvej 1, 3650 Ølstykke. |
266 | 10098.6000 | Tonstung transport gennem lille villakvarter. |
224 | 13247.2000 | Nu forhenværende commander in chief Donald Trump brød samfundspagten. |
215 | 7027.8571 | Artiklen: DEBAT: "Fartdæmpende foranstaltninger giver falsk tryghed" |
205 | 3597.2000 | Også økonomiudvalget indstillede sagen godkendt. |
204 | 6063.6250 | Ulla Astman, Regionsrådsformand, Region Nordjylland (Socialdemokratiet). |
195 | 1904.0000 | Magnus Heunicke holder pressemøde klokken 19.00. |
188 | 978.3750 | Statsminister Mette Frederiksen(S) besøgte mandag Helsingør. |
183 | 11648.3333 | Ellers gør dette herlige DR-initiativ måske. |
172 | 1505.7500 | Ingen yderligere oplysninger p.t., skriver Københavns Vestegns Politi. |
154 | 10268.2857 | Rudersdal Kommunes ny borgerrådgiver Kirsten á Rogvi. |
145 | 9022.3000 | Efter 23 års ansættelse stopper Carsten Werge hos TV3. |
145 | 5171.4286 | Klokken 02.42 lød alarmen hos Beredskab Fyn. |
134 | 7556.8571 | Anerkendelsen vækker stor glæde hos Coops direktør. |
132 | 9961.0000 | Her ses intiativtager Poul Henrik Blasen Nielsen. |
131 | 7917.1250 | Outdoor Adventures mest solgte model koster 589 kroner. |
128 | 11724.2000 | Som efterskolelev forstår Mille Bay Ladefoged 100 procent sine medelever. |
126 | 2663.8333 | For dårlige beslutninger skaber dårlig omtale. |
110 | 8375.5000 | Kun mustensvæggene står tilbage, fortæller indsatsleder. |
110 | 6743.8000 | Missionen lykkedes, fortæller Søren Hückelkamp. |
In contrast to subsection 4.5.2.1 we now search for sentences consisting of rare words only. The sentences are ordered by the rank of the most frequent word in a sentence. In the table, we see the corresponding sentences with a minimum length of 40 characters.
The sentences are forced not to contain any everyday word. As a consequence, we get either sentences of some very reduced structure or sentences in some foreign language. Hence, the data are useful for the evaluation of the preprocessing, especially language detection.
select min(w_id)-100 as m, avg(w_id)-100 as a, s.sentence from sentences s, inv_w i where s.s_id=i.s_id and length(sentence)>40 and i.w_id>100 group by s.s_id order by m desc limit 30;
Should we remove the sentences having its least frequent word above some threshold?
4.5.2.1 Maximum word rank in sentence
4.5.2.2 Average word rank in sentence
4.5.2.4 Sentences consisting of many low frequency words II
4.5.2.5 Sentences consisting of short words only I
4.5.2.6 Sentences consisting of short words only II
4.5.2.7 Sentences consisting of long words only I
4.5.2.8 Sentences consisting of long words only II